The surrogate loss of variational autoencoders (VAEs) poses various challenges to their training, inducing the imbalance between task fitting and representation inference. To avert this, the existing strategies for VAEs focus on adjusting the tradeoff by introducing hyperparameters, deriving a tighter bound under some mild assumptions, or decomposing the loss components per certain neural settings. VAEs still suffer from uncertain tradeoff learning.We propose a novel evolutionary variational autoencoder (eVAE) building on the variational information bottleneck (VIB) theory and integrative evolutionary neural learning. eVAE integrates a variational genetic algorithm into VAE with variational evolutionary operators including variational mutation, crossover, and evolution. Its inner-outer-joint training mechanism synergistically and dynamically generates and updates the uncertain tradeoff learning in the evidence lower bound (ELBO) without additional constraints. Apart from learning a lossy compression and representation of data under the VIB assumption, eVAE presents an evolutionary paradigm to tune critical factors of VAEs and deep neural networks and addresses the premature convergence and random search problem by integrating evolutionary optimization into deep learning. Experiments show that eVAE addresses the KL-vanishing problem for text generation with low reconstruction loss, generates all disentangled factors with sharp images, and improves the image generation quality,respectively. eVAE achieves better reconstruction loss, disentanglement, and generation-inference balance than its competitors.
translated by 谷歌翻译
Score-based diffusion models have captured widespread attention and funded fast progress of recent vision generative tasks. In this paper, we focus on diffusion model backbone which has been much neglected before. We systematically explore vision Transformers as diffusion learners for various generative tasks. With our improvements the performance of vanilla ViT-based backbone (IU-ViT) is boosted to be on par with traditional U-Net-based methods. We further provide a hypothesis on the implication of disentangling the generative backbone as an encoder-decoder structure and show proof-of-concept experiments verifying the effectiveness of a stronger encoder for generative tasks with ASymmetriC ENcoder Decoder (ASCEND). Our improvements achieve competitive results on CIFAR-10, CelebA, LSUN, CUB Bird and large-resolution text-to-image tasks. To the best of our knowledge, we are the first to successfully train a single diffusion model on text-to-image task beyond 64x64 resolution. We hope this will motivate people to rethink the modeling choices and the training pipelines for diffusion-based generative models.
translated by 谷歌翻译
Most existing person re-identification methods compute the matching relations between person images across camera views based on the ranking of the pairwise similarities. This matching strategy with the lack of the global viewpoint and the context's consideration inevitably leads to ambiguous matching results and sub-optimal performance. Based on a natural assumption that images belonging to the same person identity should not match with images belonging to multiple different person identities across views, called the unicity of person matching on the identity level, we propose an end-to-end person unicity matching architecture for learning and refining the person matching relations. First, we adopt the image samples' contextual information in feature space to generate the initial soft matching results by using graph neural networks. Secondly, we utilize the samples' global context relationship to refine the soft matching results and reach the matching unicity through bipartite graph matching. Given full consideration to real-world person re-identification applications, we achieve the unicity matching in both one-shot and multi-shot settings of person re-identification and further develop a fast version of the unicity matching without losing the performance. The proposed method is evaluated on five public benchmarks, including four multi-shot datasets MSMT17, DukeMTMC, Market1501, CUHK03, and a one-shot dataset VIPeR. Experimental results show the superiority of the proposed method on performance and efficiency.
translated by 谷歌翻译
了解出版物思想的起源和影响对于进行科学研究至关重要。但是,科学出版物的扩散使研究人员难以弄清所有相关文献的演变。为此,我们介绍了Ideareader,这是一种机器阅读系统,发现哪些论文最有可能激发或受到目标出版物的影响,并以自然语言总结了这些论文的想法。具体而言,Ideareader首先将目标出版物的参考和引用(一阶或高阶)和所获得的集群视为激发或受到目标出版物影响的主题。然后,它从每个集群中挑选出重要的论文来提取想法流的骨骼。最后,Ideareader会自动生成对每个主题中重要论文的文献综述。我们的系统可以帮助研究人员深入了解科学思想如何通过自动生成的调查和想法流的可视化来从目标出版物的引用引用。
translated by 谷歌翻译
由于非平稳性,现实世界多变量时间序列(MTS)的分布会随着时间而变化,称为分布漂移。大多数现有的MT预测模型都会极大地遭受分销漂移的影响,并随着时间的推移降低了预测性能。现有方法通过适应最新到达数据或根据未来数据得出的元知识进行自我纠正来解决分布漂移。尽管在MT的预测中取得了巨大的成功,但这些方法几乎无法捕获固有的分布变化,尤其是从分布的角度来看。因此,我们提出了一个新型的框架时间条件变化自动编码器(TCVAE),以对MTS中历史观察结果和未来数据之间的动态分布依赖性进行建模,并将依赖性作为时间条件分布推断为利用潜在变量。具体而言,新型的颞鹰注意机制代表了随后馈入馈送前网络的时间因素,以估计潜在变量的先前高斯分布。时间因素的表示进一步动态地调整了基于变压器的编码器和解码器的结构,以利用门控注意机制来变化。此外,我们引入条件连续归一化流量,以将先前的高斯转化为复杂且无形式的分布,以促进对时间条件分布的灵活推断。在六个现实世界MTS数据集上进行的广泛实验表明,与最先进的MTS预测基线相比,TCVAE的出色鲁棒性和有效性。我们进一步说明了TCVAE通过多方面的案例研究和现实情况下的可视化来说明TCVAE的适用性。
translated by 谷歌翻译
随着视频数量的越来越多,对技术的需求很大,可以帮助人们迅速导航到他们感兴趣的视频片段。但是,当前的视频理解主要理解主要是视频内容摘要,而几乎没有努力,而对探索视频的结构。受文本轮廓生成的启发,我们介绍了一项新颖的视频理解任务,即视频大纲生成(VOG)。该任务定义为包含两个子任务:(1)首先根据内容结构对视频进行分割,然后(2)为每个段生成一个标题。要学习和评估VOG,我们注释了一个10K+数据集,称为Duvog。具体来说,我们使用OCR工具来识别视频的字幕。然后,要求注释者将字幕分为章节,并将每个章节分为标题。在视频中,突出显示的文本往往是标题,因为它更有可能引起人们的注意。因此,我们提出了一个视觉字幕功能增强的视频大纲生成模型(VSENET),该模型将文本字幕及其视觉字体大小和位置作为输入。我们将VOG任务视为一个序列标记问题,该问题提取了跨标题的位置,然后将其重写以形成最终大纲。此外,基于视频概述和文本概述之间的相似性,我们使用大量文章带有章节标题来预先我们的模型。 Duvog上的实验表明,我们的模型在很大程度上胜过其他基线方法,对于视频分割水平达到了77.1的F1得分,对于标题生成级别的Rouge-L_F0.5的85.0。
translated by 谷歌翻译
节点注入对图神经网络(GNN)的攻击已作为一种实际的攻击场景而引起了人们的注意,攻击者会注入恶意节点,而不是修改节点功能或边缘以降低GNN的性能。尽管节点注射攻击最初取得了成功,但我们发现,通过防御方法,可以通过防御方法和限制其在实践中限制其攻击性能,从而很容易将注射的节点与原始正常节点区分开。为了解决上述问题,我们致力于伪装节点注入攻击,即伪装注入恶意节点(结构/属性)是对防御方法似乎合理/不察觉的普通淋巴结。图形数据的非欧亚人性质和缺乏人类的先验性质给伪装上伪装的形式化,实施和评估带来了巨大挑战。在本文中,我们首先提出并制定了从注射节点围绕的自我网络的忠诚度和多样性中注入的节点的伪装。然后,我们为节点注射攻击(即Cana)设计了一个对抗性伪装框架,以改善伪装,同时确保攻击性能。进一步设计了几种用于图形伪装的新型指标,以进行全面的评估。实验结果表明,当将现有的节点注入攻击方法与我们提出的CANA框架配置时,针对防御方法的攻击性能以及节点伪装将显着改善。
translated by 谷歌翻译
现代有效的卷积神经网络(CNN)始终使用可分开的卷积(DSC)和神经体系结构搜索(NAS)来减少参数数量和计算复杂性。但是网络的一些固有特征被忽略了。受到可视化功能地图和n $ \ times $ n(n $> $ 1)卷积内核的启发,本文介绍了几种准则,以进一步提高参数效率和推理速度。基于这些准则,我们的参数有效的CNN体​​系结构称为\ textit {vgnetg},比以前的网络更高的准确性和延迟较低,降低了约30%$ \厚度$ 50%的参数。我们的VGNETG-1.0MP在ImageNet分类数据集上具有0.99万参数的67.7%TOP-1准确性和69.2%的TOP-1精度,而参数为114m。此外,我们证明边缘检测器可以通过用固定的边缘检测核代替N $ \ times $ n内核来代替可学习的深度卷积层来混合特征。我们的VGNETF-1.5MP存档64.4%( - 3.2%)的TOP-1准确性和66.2%(-1.4%)的TOP-1准确性,具有额外的高斯内核。
translated by 谷歌翻译
深度神经网络通过学习从低分辨率(LR)图像到高分辨率(HR)图像的映射,在图像超分辨率(SR)任务中表现出了显着的性能。但是,SR问题通常是一个不适的问题,现有方法将受到一些局限性。首先,由于可能存在许多不同的HR图像,因此SR的可能映射空间可能非常大,可以将其删除到相同的LR图像中。结果,很难直接从如此大的空间中学习有希望的SR映射。其次,通常不可避免地要开发具有极高计算成本的非常大型模型来产生有希望的SR性能。实际上,可以使用模型压缩技术通过降低模型冗余来获得紧凑的模型。然而,由于非常大的SR映射空间,现有模型压缩方法很难准确识别冗余组件。为了减轻第一个挑战,我们提出了一项双重回归学习计划,以减少可能的SR映射空间。具体而言,除了从LR到HR图像的映射外,我们还学习了一个附加的双回归映射,以估算下采样内核和重建LR图像。通过这种方式,双映射是减少可能映射空间的约束。为了应对第二项挑战,我们提出了一种轻巧的双回归压缩方法,以基于通道修剪来降低图层级别和通道级别的模型冗余。具体而言,我们首先开发了一种通道编号搜索方法,该方法将双重回归损耗最小化以确定每一层的冗余。鉴于搜索的通道编号,我们进一步利用双重回归方式来评估通道的重要性并修剪冗余。广泛的实验显示了我们方法在获得准确有效的SR模型方面的有效性。
translated by 谷歌翻译
大多数最先进的实例级人类解析模型都采用了两阶段的基于锚的探测器,因此无法避免启发式锚盒设计和像素级别缺乏分析。为了解决这两个问题,我们设计了一个实例级人类解析网络,该网络在像素级别上无锚固且可解决。它由两个简单的子网络组成:一个用于边界框预测的无锚检测头和一个用于人体分割的边缘引导解析头。无锚探测器的头继承了像素样的优点,并有效地避免了对象检测应用中证明的超参数的敏感性。通过引入部分感知的边界线索,边缘引导的解析头能够将相邻的人类部分与彼此区分开,最多可在一个人类实例中,甚至重叠的实例。同时,利用了精炼的头部整合盒子级别的分数和部分分析质量,以提高解析结果的质量。在两个多个人类解析数据集(即CIHP和LV-MHP-V2.0)和一个视频实例级人类解析数据集(即VIP)上进行实验,表明我们的方法实现了超过全球级别和实例级别的性能最新的一阶段自上而下的替代方案。
translated by 谷歌翻译